주성분 분석 (문단 편집)

== 방법 ==
주성분 분석의 방법을 요약해서 우선 설명해보면 다음과 같다.

1. 서로 연관성이 있는 고차원공간의 데이터를 선형연관성이 없는 저차원(주성분)으로 변환하는 과정을 거친다([[선형변환]]을 사용)

2. 기존의 기본변수들을 새로운 변수의 [[세터]]로 변환하여 차원을 줄이되 기존 변수들의 분포특성을 최대한 보존하여 이를 통한 분석결과의 신뢰성을 확보한다.

예를 들어서 [math(\mathbf{x} = \begin{bmatrix} x_1 \quad x_2 \quad ... \quad x_p \end{bmatrix})]로 이뤄진 자료가 주어졌다고 할 때, 주성분 분석을 위해선 X의 대리변수를 찾아야 한다. [* 대리변수는 위 x의 방대한 데이터를 대표하는 변수를 의미한다.]

이 때 대리변수를 찾는 방법이 [[선형변환]](직교변환)이다. 즉 적절한 행렬 A를 활용해 X를 대신할 수 있는 Y = AX를 얻고, Y 행렬의 변수 중요 변수 몇 개를 추려 X 대신 사용하는 형식으로 분석한다.

따라서, 선형변환을 하는 행렬 A를 어떻게 찾아내느냐가 주성분 분석의 핵심이다.

이를 찾아내는 자세한 과정을 첨부한다. [[https://rython.tistory.com/18]]

A를 찾는 데에 공분산행렬이나 상관계수 행렬을 사용한다. [* 공분산 행렬과 상관계수 행렬을 사용하는 이유는 이 행렬들이 주어진 자료의 변동성을 반영하기 때문이다.]

공분산 행렬, 상관계수 행렬의 변동성을 최대한 많이 가져오는 행렬 A를 만듦으로써 설명력이 높은 대리변수를 만들고자 하는 것이다.[* 자칫 변동성이 크면 모형의 불확실성이 높아지고 적합도가 떨어지지 않느냐고 생각할 수 있다. 그러나 이는 종속변수의 변동성이 클 때의 이야기이다. 주성분 분석은 딱히 독립변수와 종속변수를 구분하지 않고 모형을 전개한다. 직관적으로 설명하자면, 주성분 분석에서 변수의 분산은 자료의 폭과 다양함, 설명할 수 있는 범위의 크기를 반영한다고 생각하면 된다.]

그런데, 공분산 행렬과 상관계수 행렬은 모두 대칭행렬이고 양정치행렬[* positive-definite. 영벡터를 제외한 임의의 실벡터 u에 대해 <math> {\bf u^t B u} > 0</math>를 만족하는 행렬 B를 양정치행렬이라고 한다.] 이다.

모든 원소가 실수인 대칭행렬은 모든 고유값(eigenvalue)이 실수이며 대각화(diagonalization)가 항상 가능하다.

특히 스펙트럼 분해가 가능하다. 또한 양정치행렬의 고유값은 모두 양수이다.[* 통계학에서 이차형식을 다룰 때에는 대칭행렬을 고려하는 것이 일반적이기 때문에 '대칭행렬이며 양정치 행렬이다'가 아니라 '양정치 행렬이다'라고만 서술하는 경우도 많다.] 따라서 공분산행렬과 상관계수 행렬은 항상 모든 고유값이 양수인 스펙트럼 분해가 가능하다. 이를 잘 활용하면 적절한 Y를 만들어주는 A를 찾을 수 있고 여기에서 설명력이 높은 변수가 무엇인지 알 수 있다.

저장 버튼을 클릭하면 당신이 기여한 내용을 CC-BY-NC-SA 2.0 KR으로 배포하고,
기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다.
이 동의는 철회할 수 없습니다.

주성분 분석 (문단 편집)

캡챠